Management Summary
Dies ist eine Fallstudie zur explorativen Datenanalyse auf selbst gesammelten GPS-Daten. Anhand verschiedener Visualisierungen kann man Zusammenhänge erkunden, die jedoch nicht weitergehend durch Hypothesentests untersucht werden.
Einleitung
Im Frühjahr 2020 bin ich zur Ostsee Segler Gemeinschaft e.V. gestoßen, ein Segelverein mit ca. 20 Booten und etwa 200 Mitgliedern an der Südwest-Seite der Alster. In diesem Sommer habe ich diese ausgiebig genutzt und meine Segelfertigkeiten aufgebaut. Einige dieser Törns habe ich per GPS aufgezeichnet und mit verschiedenen Visualisierungswerkzeugen untersucht. Einige Erkenntnisse:
- Mittwochs geh ich ungern segeln.
- Donnerstags ist Alster-Erkundungstag.
- Mit den Möwen bleibt man anscheinend lieber nahe beim OSG-Steg.
- Mit Conger und Kielzugvogel kommt man dagegen überall hin.
- Conger sind die Brot-und-Butter-Boote.
- Corona verhilft zu Einhandsegler-Skills.
- Regatta-GPS-Tracks sehen aus wie Wollknäuel.
- Die Mitte der Alster ist (wie zu erwarten) der Segel-Hotspot.
Datenüberblick
Da ich (natürlich) nicht alle Sessions aufgezeichnet habe, folgt hier ein Überblick über die in dieser Analyse verwendeten Daten:
- Zeitraum: Sonntag, 17.05.2020 bis Samstag, 17.10.2020
- Anzahl GPS-Punkte: 87.786
- Anzahl aufgezeichneter Tage: 43
- Gesamtstrecke aufgezeichnet: 220 Seemeilen, entspricht etwa 396 km
- Anzahl gefahrener Bootstypen: 10
- Anzahl verschiedener Segelpartner: 15
- 43 Sessions in 21.9 Wochen macht im Schnitt 2 Sessions pro Woche, oder 1 Session alle 3.6 Tage
Zeitlicher Verlauf
Zunächst kann man ohne Aggregation die im Datensatz vorhandenen Tage darstellen.
Beobachtung: Der September war mit 14 Sessions der aktivste Segelmonat.
Wochentage
Nun kann man den Datensatz nach den enthaltenen Variablen stratifizieren, beginnend mit dem Wochentag.
Häufigkeitsverteilung
Beobachtung: Mittwochs scheint mir die große Känguruhregatta das Segeln zu vermiesen, bei der vereinsinternen Dienstagsregatta scheine ich jedoch gerne dabei zu sein. (Oder: Nach der Dienstagsregatta bin ich so durch, dass Mittwochs gar nichts geht?)
Räumliche Verteilung
Wir benutzen das Paket Leaflet zur interaktiven Darstellung aller GPS-Tracks (per Maus kann gezoomt werden, die Legende dient zur Umschaltung der verschiedenen Wochentage):
Beobachtung: Samstags wagt man sich anscheinend nicht so weit raus, wohingegen man Donnerstags auch mal bis zum Unisteg in den Langen Zug fährt.
Gefahrene Peilungen und Windrichtung
Zu jedem GPS-Punkt ist die momentane Peilung bekannt (die “Fahrtrichtung”). Dies können wir auszählen und als Histogramm (Häufigkeitsdiagramm) wie eine Kompassrose darstellen. Gleichzeitig ist zu jeder Segelsession die Windrichtung bekannt. Beides können wir nebeneinander stellen.
Der Kurs um 15° (Nord-Nordost) sowie 165° (Süd-Südost) scheint bei mir sehr beliebt zu sein. Schaut man sich die geografische Form der Alster an, ist dies unmittelbar einsichtig: Als langgestrecktes Nord-Süd-Revier fährt man eben mehr “hoch und runter” statt “rechts und links”, mit leichter Tendenz, zu Beginn “nach Nordost” zu fahren.
Beobachtung: Der übliche Start-Weg vom OSG-Steg geht nach Nord-Nordost. Außerdem weht hier oft Südwest bzw. Nordwest-Wind, sodass genau diese Fahrtrichtungen selten sein sollten.
Bootstypen
Häufigkeitsverteilung
Mit 14 Sessions war Conger mein beliebtestes Boot. Dies lag zum einen daran, dass es ein sehr anfängerfreundliches Boot ist (ich habe meinen Segelschein erst Ende 2019 abgelegt und habe davor noch nie ein Segelboot betreten), der andere Grund findet sich in der Analyse der Segelpartner.
Beobachtung: Auf Conger ist gut Segeln lernen.
Räumliche Verteilung
Beobachtung: Mit Conger und Kielzugvogel kommt man überall hin, mit der Möwe bleibt man lieber nahe beim OSG-Steg.
Welches Boot war das schnellste?
Interessant ist natürlich die Frage, mit welchem Boot man im Durchschnitt welche Geschwindigkeit (angegeben in Knoten) erreicht hat.
Beobachtung: Interessanterweise sind die beiden Extreme die schnellsten: Die Gleitjolle 470er und das Kielboot C55 (Rosie). Die J70 ist das Bundesliga-Boot und sollte schneller sein, aber an dem einen Tag war wohl nicht viel Wind :-) Nächste Saison lohnt sich wohl ein Blick zur Rosie!
Segelpartner
Häufigkeitsverteilung
Mit 11 Sessions war ich allein am öftesten draußen. Dies lag vor allem an den Corona-bedingten Kontaktbeschränkungen im Mai und Juni 2020 - so musste ich gezwungenermaßen das Einhandsegeln erlernen.
Räumliche Verteilung der Segelpartner
Hierfür verwenden wir eine statische Darstellung der GPS-Strecken:
Deutlich zu sehen: Die Regattapartner Christoph, Bernd und Jochem mit ihren Wollknäuel-Strecken.
Lieblings-Regionen auf der Alster
Wir betrachten die zweidimensionale Dichtefunktion der gefahrenen Strecken. Auf deutsch: Man kann die Alster in kleine Quadrate einteilen und zählen, wie oft jedes Quadrat durchfahren wurde. Die Quadrate färbe ich entsprechend der Häufigkeit ihres Durchfahrens ein - häufige durchfahrene Flächen rot, selten durchfahrene grün. So wie eine Corona-Hotspot-Karte eben.
Beobachtung: Die roten Hotspots könnten die Dienstagsregatta-Runden sein, der Vereinssteg unten links ist ebenfalls deutlich zu sehen.
Ausblick
Dies ist nur eine kleine, visualisierungsgetriebene explorative Analyse der Saison 2020, überwiegend univariat und ohne Überprüfung der aufgestellten Hypothesen. Aus dieser ergeben sich untersuchenswerte Fragen:
- Gibt es einen Zusammenhang zwischen Bootslänge und Geschwindigkeit?
- Gibt es einen Zusammenhang zwischen Windrichtung und Fahrtrichtungen?
- Gibt es einen Zusammenhang zwischen Windgeschwindigkeiten und Bootstypen (Wann nehme ich welches Boot?)
- Außer den 220 Seemeilen auf der Alster bin ich im Jahr 2020 noch 280 Seemeilen auf der Ostsee unterwegs gewesen - diese sind hier außen vor, wären allerdings eine eigene Analyse wert.
Diese Fragen könnte man mit Hypothesentests oder anderen Machine Learning-Methoden untersuchen, was hier zunächst zu weit führen würde. Die Chips im Keller glühen jedoch schon und 2021 ist auch noch ein Jahr :-)
Credits
Danke OSG für die super Gemeinschaft, die fetzigen Boote und die spaßigen Angebote!
Technisches
Die Datensammlung erfolgt mit den Apps Komoot und Waterspeed, diese Analyse wurde mit R 4.0.2 und folgenden nützlichen Helfern erstellt:
- Data Input:
readrreadxl
- Data Wrangling:
dplyrpurrrtidyrlubridateglue
- Grafik:
highcharterggplot2randomcoloRyarrr
- Geoanalyse:
- Output:
rmarkdownknitrprettydoc
Der Code für alle Berechnungen und Visualisierungen kann in meinem Github Repository heruntergeladen werden, diese Seite ist unter https://shosaco.github.io/sailing_analyses/ erreichbar.